메뉴

#비언어적 이해

MP
MarkTechPost 6일 전
IMP 8

스텝펀, 역할극 특화 RLHF 적용한 'StepAudio 2.5 실시간' 공개

중국 상하이 기반 AI 연구소 스텝펀(StepFun)이 오디오 입력부터 출력까지 단일 시스템으로 처리하는 엔드투엔드 실시간 음성 대형 언어 모델(LLM) 'StepAudio 2.5 Realtime'을 공개했습니다. 이 모델은 백만 단위의 페르소나 데이터 증강과 역할극 특화 RLHF(인간 피드백 기반 강화학습)를 적용하여 대화 중 캐릭터 붕괴(OOC) 현상을 방지하고 안정적인 연기력을 유지하는 것이 특징입니다. 특히 사용자의 말투, 감정, 속도 등 비언어적(Paralinguistic) 요소를 이해하고 이에 맞춰 감정적인 반응을 생성하여 5가지 벤치마크 평가에서 모두 1위를 차지했습니다.

음성 AI 모델 엔드투엔드 LLM RLHF